土著非洲语言在人工智能中被归类为服务不足,并且数字包容性和信息获取差。挑战是如何在没有必要数据的情况下使用机器学习和深度学习模型。 Kencorpus是一种肯尼亚语言语料库,打算弥合有关如何收集和存储文本和语音数据的差距,足以启用数据驱动的解决方案,例如机器翻译,多语言社区中的问题回答和转录。 Kencorpus是一种主要在肯尼亚说的三种语言的语料库(文本和语音):斯瓦希里语,Dholuo和Luhya(方言Lumarachi,Lulogooli和Lubukusu)。该语料库打算填补开发数据集的空白,该数据集可用于低资源语言的自然语言处理和机器学习任务。这些语言中的每一种都为语言语料库贡献了文本和语音数据。数据收集是由社区,学校和合作伙伴(媒体,出版商)的研究人员完成的。 Kencorpus有5,594个项目的集合,为4,442个文本(560万字)和1,152个语音文件(177小时)。基于这些数据,还开发了其他数据集,例如Dholuo和Luhya的POS标记集(分别为50,000和93,000个单词),来自Swahili文本(7,537 QA对)的问答对,以及将文本转换为Swahili(12,400句子)。数据集可用于机器学习任务,例如文本处理,注释和翻译。该项目还在QA任务的文本和机器学习语音和机器学习中为概念系统提供了证明,最初的结果证实了Kencorpus对机器学习社区的可用性。 Kencorpus是这些低资源语言的第一个此类语料库,并且是学习和共享类似作品的经验的基础。
translated by 谷歌翻译
The need for Question Answering datasets in low resource languages is the motivation of this research, leading to the development of Kencorpus Swahili Question Answering Dataset, KenSwQuAD. This dataset is annotated from raw story texts of Swahili low resource language, which is a predominantly spoken in Eastern African and in other parts of the world. Question Answering (QA) datasets are important for machine comprehension of natural language for tasks such as internet search and dialog systems. Machine learning systems need training data such as the gold standard Question Answering set developed in this research. The research engaged annotators to formulate QA pairs from Swahili texts collected by the Kencorpus project, a Kenyan languages corpus. The project annotated 1,445 texts from the total 2,585 texts with at least 5 QA pairs each, resulting into a final dataset of 7,526 QA pairs. A quality assurance set of 12.5% of the annotated texts confirmed that the QA pairs were all correctly annotated. A proof of concept on applying the set to the QA task confirmed that the dataset can be usable for such tasks. KenSwQuAD has also contributed to resourcing of the Swahili language.
translated by 谷歌翻译
我们认为,被认为是成功执行任务的处置的情报是由代理及其上下文组成的系统的属性。这是扩展智力的论点。我们认为,如果允许其上下文变化,通常不会保留代理的性能。因此,这种处置不是由代理人独自拥有的,而是由由代理及其上下文组成的系统所拥有的,我们将其配置为具有代理的代理。代理商的背景可能包括环境,其他代理,文化文物(例如语言,技术)或所有这些,就像人类和人工智能系统以及许多非人类动物一样。根据扩展情报的论点,我们认为智能是上下文结合的,任务局部和不可限制的代理商。我们的论文对在心理学和人工智能的背景下如何分析智力具有很大的影响。
translated by 谷歌翻译
虽然神经网络在平均病例的性能方面对分类任务的成功显着,但它们通常无法在某些数据组上表现良好。这样的组信息可能是昂贵的;因此,即使在培训数据不可用的组标签不可用,较稳健性和公平的最新作品也提出了改善最差组性能的方法。然而,这些方法通常在培训时间使用集团信息的表现不佳。在这项工作中,我们假设没有组标签的较大数据集一起访问少量组标签。我们提出了一个简单的两步框架,利用这个部分组信息来提高最差组性能:训练模型以预测训练数据的丢失组标签,然后在强大的优化目标中使用这些预测的组标签。从理论上讲,我们在最差的组性能方面为我们的方法提供泛化界限,展示了泛化误差如何相对于培训点总数和具有组标签的培训点的数量。凭经验,我们的方法优于不使用群组信息的基线表达,即使只有1-33%的积分都有组标签。我们提供消融研究,以支持我们框架的稳健性和可扩展性。
translated by 谷歌翻译